OpenAI 本周宣布,其标志性大型语言模型(LL)ChatGPT 已更新,用户现可直接从外部云盘 Google Drive 和 Microsoft OneDrive 导入文件。该功能适用于 ChatG Plus、Team 和 Enterprise 用户,并可在使用新的 GPT-4o 模型以及
谷歌推出了一款名为PaliGemma的开源视觉语言模型,该模型结合了图像处理和语言理解的能力,旨在支持多种视觉语言任务,如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。
OpenAI首席执行官 Sam Altman 在接受采访时透露了 GPT-4o 和 GPT5的一些信息。GPT-4o 是一款多模态大模型,可以跨文本、视频和音频进行推理。Sam Altman表示,他早就有用语音控制计算机的想法,而 GPT-4o 的综合推理能力将
5月14日,OpenAI召开春季发布会发布基于GPT-4o打造的语音版ChatGPT,次日Google I/O大会正式召开,推出从基座模型 Gemini 升级到新的AI语音助手 Astra,标志着人机语音对话技术进入新的历史时刻。
Midjourney团队在最近的工作时间透露了他们在视频模型、3D模型、实时生成效果以及网站和模型开发方面的最新进展。以下是他们透露的关键信息:
Hume公司推出的EVI API新增了原生网页搜索功能的TTS(文本到语音)技术,允许用户通过网页搜索功能直接将网页内容转换成语音播报。同时,他们还推出了一款创新的互动式AI播客——Chatter。
UIUC与BigCode组织的研究者们最近发布了StarCoder2-15B-Instruct代码大模型,这一创新成果在代码生成任务方面取得了显著突破。这款模型成功超越了CodeLlama-70B-Instruct,登上了代码生成性能榜单之巅。
5月15日,百度Apollo在武汉举办Apollo Day 2024,其最前沿的智驾技术产品迎来焕新升级,命名为“ASD”(Apollo Self-Driving),并将在极越全系车型量产首发。
昨晚的Google I/O发布会上,Google宣布了一系列AI模型的更新,涵盖了从文本到视觉和音乐的多个领域:
在今天凌晨举行的I/O开发者大会上,谷歌表示即将推出Android15,并且还剧透了一些新功能。
谷歌在I/O大会上宣布,Android15已融入谷歌Gemini大模型,支持诸如AI语音助理防诈骗、画圈图片搜索、理解图片给出更符合用户需求的答案等功能,Android 15 Beta 2将在明天正式推出。
日前,微软宣布OpenAI最新发布的多模态模型 GPT-4o 现已可以在 Azure OpenAI 云服务中使用。
国际电信联盟电信标准分局第十六研究组(ITU-T SG16)近日于法国雷恩召开全体会议,《基于人工智能的代码生成技术要求和评估方法》(后称《方法》)国际标准项目成功获得立项通过。
OpenAI再次掀起人工智能浪潮,全新旗舰大模型GPT-4o正式亮相。同时,OpenAI 还宣布将推出 ChatGPT 桌面版应用程序,首先向 Plus 用户推出 macOS 版,未来计划推出 Windows 版本。
OpenAI 发布最新旗舰大模型 GPT-4o,所有用户都可以免费使用!该模型提供了 GPT-4 级别的 AI 能力,接受文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出。
英国人工智能安全研究所(AI Safety Institute)近日推出了一款名为“Inspect”的 AI 模型安全评估平台,该平台采用开源授权方式,向全球 AI 工程师免费开放,允许工程师们评估自家模型性能及安全性。
Refuel AI 最近宣布推出两个新版本的大型语言模型(LLM),RefuelLLM-2和 RefuelLLM-2-small,这两个模型专为数据标注、清洗和丰富任务而设计,旨在提高处理大规模数据集的效率。
-------------没有了-------------